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Procede de correspondance autoxnablque entre des 
Elements graphiques et des Sl&nents phonetiques 

La pr^sente invention concerne en general 
5 !• extraction automatique de connaissances 

linguistiques dans iin corpus de transcriptions de 
chaines graphiques en des chaines phonetiques. Plus 
particulidrement, elle concerne la transcription 
d' elements typographiques tels que des caractdres 
10 dans une langue prSd6terminee en des Elements 
phonetiques . 

Actuellement , chaque mot d'une langue constitue 
une chaine graphique qui est transcrite 

15 phon§tiquement en xine chaine de phonemes par un 
phoneticien. Pour tout nouveau mot a aj outer a un 
corpus d' apprentissage, le phoneticien doit 
intearvenir pour transcrire phone tiquement ce nouveau 
mot. Le corpus d ' apprentissage ne fournit ainsi que 

20 des transcriptions grapheme /phoneme globales. Par 
exemple dans la transcription globale "ruelle "/ [rye 
1] , le corpus indique que globalement, la chaine 
graphique "ruelle" se traduit en chaine phonetique. 
Cependant, il n'est pas explicite que de quelque 

25 maniere, unitairement , 1' element typographique "r" se 
retranscrit phonetiquement • La transcription globale 
n' indique pas egalement les syllabes ou graphemes 
composant la chaine graphique et les elements 
phonetiques composant la chaine phonetique. 

30 Or la connaissance de la transcription 

elementaire de chaque element typographicjue permet^ 
par la suite, par analyse caractere par caractdre de 
toute chaine graphique, de determiner une ou 
plusieurs chaines phonetiques associees k la chaine 

35 graphique. Les transcriptions phonetiques sont utiles 
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cl des systdmes correcteurs de fautes pour reconnaitre 
des fautes lexicales lors de la saisie de texte sur 
un clavier. Il existe done vm besoin S partir d'une 
transcription brute d'extraire des transcriptions 
5 ^l€mentaires plus fines. 

L' invention vise & d^duire automat iquement des 
transcriptions brutes de chaines graphiques, telles 
que mots et noms patronymiques, par exemple, en des 

10 chaines phonetiques, des transcriptions d' elements 
graphiques, telles que caracteres, en des Elements 
phonStiques composant les chaines phonetiques afin de 
segmenter automatiquement toute chaine graphique en 
graphemes et toute chaine phonetique en phonemes. Les 

15 transcriptions elementaires element graphique par 
element graphique, c ' est-^-dire caractere par 
caractSre, facilitent ensuite la transcription 
globale automatique de toute chaine graphique 
supplement aire apportee au corpus des chaines 

20 graphiques, sur la base notamment d'une concatenation 
d' elements phonetiques correspondant de maniere 
biunivoque aux caracteres de la chaine graphique 
supplement aire . 

25 A cette fin, un precede selon 1 ' invention fait 

correspondre automatiquement des elements graphiques 
composant des chaines graphiques donnees a des 
elements phonetiques composant des chaines 
phonetiques correspondantes , aprds avoir saisi 

30 initialement des transcriptions globales des chaines 
graphiques en les chaines phonetiques dans une base 
accessible par I'ordinateur et avoir estime et 
enregistre dans la base des premieres probabilites de 
transcriptions Elementaires des elements graphiques 
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respect ivement en les elements phon^tiques. Le 
proc6dS est caracteris^ par les Stapes suivantes : 

pour chaque transcription d'une chaine graphicjue 
donnee ^ M Sl^ments graphiques en une chaine 
5 phonetique correspondante S N €16ments phon^tiques, 
determiner des deuxidmes probabilit^s de MN deiaxiemes 
transcriptions de M chaines graphiques concatSnant 
successivement les M elements graphiques en N chaines 
phonetiques concat^nant successivement les N elements 

10 phonetiques, en fonction chacune d'une premiere 
probabilite respective et de la plus grande de trois 
deuxidmes probabilites respectives d^terminees 
precedemment , et 

gtablir et m^moriser un lien entre les derniers 

15 616ments des chaines graphique et phonetique de 
chaque deuxieme transcription et les derniers 
elements des chaines graphique et phonetique de la 
transcription relative a la plus grande des trois 
deuxidmes probabilites respectives afin que des liens 

20 etablis dans une matrice de taille MN relative aux 
deuxidmes probabilites const itue un chemin unique 
entre des dernier et premier couples d' elements 
graphique et phonetique de la matrice pour segmenter 
la chaine graphique donnee en des graphemes 

25 correspondant respect ivement a des phonemes 
segmentant la chaine phonetique correspondante et 
pour enregistrer les correspondances entre les 
graphemes et phonemes dans la base, le nombre 
d* elements graphiques dans un grapheme etant 

30 identique au nombre d' elements phonetiques dans le 
phoneme correspondant, afin que toute nouvelle chaine 
graphique soit automat iquement transcrite en une 
chaine phonetique segment ee en phonemes au moyen des 
correspondances enregistrees . 
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Selon d'autres caractSristiques de !• invention, 
la premiere probabilite respective pour la 
determination d'lane dexixieme probabilite relative k 
une deuxieme transcription d'une chaine graphique 
5 concat^nant m Pigments graphiques en une cha£ne 
phon^tique concatSnant n elements phonetiques, avec 1 
<m<Met l<n<N, est relative aux demiers 
#16ments dans la chaine graphique a m elements 
graphiques et la chaxne phon^tique k n Pigments 

10 phonetiques. Les trois deuxiemes probabilites 
respectives dSterminSes pr^cedemment pour la deuxieme 
transcription de la chaine graphique a m elements 
graphiques en la chaine phon^tique a n elements 
phonetiques sont de preference respectivement 

15 relatives a une deuxieme transcription d'une chaine 
graphique a m-1 elements graphiques en la chaxne 
phonetique a n elements phonetiques, une deuxieme 
transcription de la chaine graphique a m elements 
graphiques en une chaine phonetique a n-1 elements 

20 phonetiques et une deuxieme transcription de la 
chaine graphique a m-1 elements graphiques en la 
chaine phonetique a n-1 elements phonetiques • 

Par exemple, 1' invention transcrit 

phone tiquement ^ partir du corpus de transcriptions 

25 globales telles que "ruelle"| [rysl] les elements 
graphiques "r", "u", "e", "lie" respectivement en les 
elements phonetiques [r] , [y] , [e] , [1] . 

L* invention peut etre assimilee a une 
syllabation qui permet par analyse de decomposer une 

30 transcription globale en transcriptions elementaires, 
et de mettre en correspondance localement des sous- 
transcriptions grapheme /phoneme . Le decoupage en 
graphemes et phonemes initiaux et la mise en 
correspondance biunivoque de chaque element graphique 

35 a chaque element phonetique des phonemes d^coupes est 
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appelSe alignement graphdnie|phondme . Selon I'exemple 
precedent, 1 » invention produit 1 ' alignement suivant : 
"r" "u" "e" "lie" 

[r] [y] [B] [1**] . 

5 Le symbole * dfisigne un Element phonetique muet et 
sans signification . 

D'autres caract^ristiques et avantages de la 
presente invention apparaltront plus clairement a la 
10 lecture de la description suivante de plusieurs 
realisations pr§f6r6es de 1' invention, k titre 
d'exemples non litnitatifs, en reference aux dessins 
annexes correspondants dans lesquels : 

la figure 1 est un algorithme d'etapes 
15 principales du proc6d6 de correspondance automatique 
selon 1 ' invention; et 

- la figure 2 est un algorithme de sous -et apes 
d'une etape de determination de premieres 
probabilites individuelles incluse dans le precede de 
20 correspondance automatique. 

Comme montre a la figure 1, le precede de 
correspondance automatique d* elements graphiques et 
d' elements phonetiques selon 1' invention comprend des 

25 etapes principales El a Ell. Ces etapes sont pour la 
plupart mises en oeuvre par exemple sous la forme 
d'un logiciel implements dans un terminal, tel qu»un 
ordinateur personnel ou un mobile dans un reseaun de 
radiocommunication cellulaire, et lie notamment a un 

30 systeme logiciel de correction orthographique de 
fautes lexicales qui peut etre integre S un systeme 
de traitement de texte ou a un systdme d'exercice 
linguistique . Le terminal contient ou peut acceder ^ 
lone base de donnees du type de celles utilisees en 
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intelligence artif icielle . La base memorise un corpus 
C de transcriptions globales initiales. 

Initialement k l'6tape El, les transcriptions 
globales (CG|CP) sont constitutes par des couples 
5 faisant correspondre chacun une chaine graphique CG, 
telle qu'un mot dans une langue predeterminte ou un 
nom patronymique, a une chaine phon6tique CP. Ces 
transcriptions ont 6tt dttermintes et saisies par un 
phontticien au moyen d'un formulaire adequat affiche 

10 par 1 ' ordinateur • Le corpus C fait correspondre des 
chaines graphiques GC composees chacune d'un ou 
plusieurs Elements typographiques (caracteres) , 
appeles ci-aprds Pigments graphiques g^ d'un alphabet 
G = {gi/ gj} & I elements dans la langue 

15 predeterminee , avec 1 < i < M, respect ivement a des 
chaines phonetiques CP composees chacune d'un ou 
plusieurs elements phonetiques pj d'un alphabet P = 
{Pl/ •-./ Pj} & J elements phonetiques avec 1 < j < J 
et I 9^ J a priori- Toutefois, on ignore a ce stade la 

2 0 segmentation de la chaine CG en syllabes ou en 
graphemes comprenant chacun un ou plusieurs elements 
graphiques, et la segmentation de la chaine CP en 
phondmes comprenant chacun un ou plusieurs elements 
phonetiques . 

25 Typiquement, les alphabets G et P ont une 

trentaine d' elements. lis presentent ainsi une 
possibilite de 30 x 30 = 900 couples possibles 
d» element graphique et d' element phonetique. En 
pratique, le corpus C contient au moins 100.000 

30 transcriptions globales de chaines typographiques CG 
en chaines phonetiques CP, ce qui preserve 
1' invention d'erreurs grossi^res dans des estimations 
de probabilites, comme on le verra ci-aprds. 

A I'etape E2, des premieres probabilites de 

35 transcription 61ementaire P(gi|pj) pour qu'un element 
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graphic[ue corresponde ^ l'gl6ment phonetique pj 

sont en priority estimSes et enregistr^es dans la 
base de donnees avec le corpus de transcriptions 
globales C, 

5 Les valeurs estimSes des premieres probabilit^s 

sont autant que possible proches respectivement de 
valeurs de probability maximales recherchSes af in que 
le proced6 de 1 • invention operant par iterations 
converge rapidement tout en 6vitant de retenir des 

10 maxima locaux. 

La nature concatenative des transcriptions 
globales des chaines conduit k I'hypothese d'une 
correlation entre le rang rg des elements graphiques 
dans une chalne graphique CG et le rang rp des 

15 elements phonStiques dans la chalne phonetique 
correspondante CP. Par exemple dans la transcription 
globale (beau|bo) , il est plus probable que 1» element 
graphique b, de par sa position en debut de chaine 
CG, se traduise en element phonetique [b] plutot 

20 qu^il ne se traduise en [o] phonetique positionne en 
fin de la chaine correspondante CP. Dans cet exemple, 
la correlation des rangs rapproche les elements 
graphiques [b] et [e] de 1' element phonetique [b] , et 
les elements graphiques [a] et [u] de 1* element 

25 phonetique [o] . 

L'algorithme d' estimation initiale E2 des 
premieres probabilites P(gi|Pj) comprend des sous- 
etapes suivantes E21 a E2 7. 

A la sous-etape E21, IJ nombres de contingence 

30 ^ip j ' respectivement associes aux transcriptions 
eiementaires (gilPj) d'un element graphique de 
1 ' alphabet G et d'un element phonetique de 1* alphabet 
P sont mis a zero. Le nombre de contingence Kg^pj est 
egal a la fin de l»etape E2 au nombre de fois estime 

35 ou 1 • element graphique g^ est retranscrit en 
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1' element phonetique pj dans les diverses 
transcriptions globales de cha£nes typographiques CG 
en chaines phonStiques CP incluses dans le corpus C. 
Pour chaque transcription de cha£ne (CG|CP) , 
5 comme indiqu^ & la sous-etape E22, les rangs des 
elements graphiques dans la chalne CG et les rangs 
des elements phonetiques dans la chalne CP sont 
normalises en fonction des longueurs respect ives Ig 
et Ip des chaines CG et CP qui peuvent Stre 

10 differentes. A la sous -6 tape E23, le rang r d'un 
element phonetique dans la chaine CP est dSduit du 
rang rg^ d'un element graphique g^ dans la chaine CG 
auquel sera associ6 1» element phonetique de rang r, 
selon la relation suivante : 

15 r = partie entiere (rgi,lp/lg), 

Le nombre de contingences Kg^pj associe a la 
transcription eiementaire de 1' element graphique g^ 
en 1» element phonetique pj n'est alors increments de 
1 que si 1' element phonetique pj est situe au rang 

20 deduit r dans la chaine CP, comme indique aux sous- 
etapes E24 et E25. 

Les sous-etapes E22 k E25 son reiterees pour 
chaque transcription globale (CGjCP) du corpus C, 
comme indique & la sous-etape E26. Lorsque toutes les 

25 transcriptions globales du corpus ont ete parcourues, 

la sous-etape suivante 26 estime toutes les premieres 

probabilites P (gi|pj ) de transcription elementaire 

entre les elements graphiques et les elements 

phonetiques, selon les relations suivantes pour 

30 chaque element graphique g^ : 

j=j 

P(gilPj) = Kgipj / ^S^Kgipj 

apres avoir calcule le terme somme au denominateur 
pour 1 ' element graph icjue g^ , 
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En revenant a la figure 1, le proced^ de 
correspondance est poursuivi par des Stapes E3 S ElO 
qui segmentent chaque chaine graphique CG lue dans le 
corpus de la base de donnees afin de faire 
5 correspondre automat iquetnent d'une tnaniere biunivoque 
chaque segment de la chaine CG, appele grapheme , 
comprenant un ou plusieurs elements graphiques cl un 
segment, appele phondme, comprenant un ou plusieurs 
Elements phonSticjues resultant d'lme segmentation de 

10 la chaine phonStique correspondante CP. 

Une chaine graphique CG comprend M elements 
graphiques consecutifs g^ a gjyj et la chaine 
phone tique CP correspondant a la chaine CG comprend N 
elements phonStiques consecutifs p^^ a pj^ avec 

15 I'entier N different, ou event uellement egal a 
1 * entier M. 

La probabilite P(gi, . . -g^, . . .gwlPi/ - - -Pn' • • -Pn^ 
pour que la chaine CG corresponde a la chaine CP, 
avec l<m<Met l<n^N, est determinee en 

20 fonction des premieres probabilites de transcription 
elementaire P(gilpj) estimees et enregistrees 
precedemment a l»etape E2, et d'une similarite entre 
les chaines CG et CP. La similarite est basee sur la 
distance d* edition de Damerau-Levenshtein DLM 

25 (Damerau-Levenshtein Metric) , mais en ef fectuant une 
maximalisation et non une minimisation. La 
probabilite P(CG|CP) est determinee par une 
programmation dynamique, en utilisant la formule 
d' iteration suivante pour tout couple m,n tel que 1 < 

30n<Netl<m<M: 

P(gig2- • •gmlPlP2- • •Pn)=P(gmlPn)"i^CP(gig2- • •gm-llPlP2- • -Pn) ' 
P (gig2 • • •gmlPlP2 • • -Pn-l) ' P (gig2 • • •gm-llPlP2 • • -Pn-l) 1 • 

La nature concatenative des transcriptions 
globales de chaines et des transcriptions 
35 graphemes /phondmes permet d'appliquer de maniere 
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efficace les moddles de Markov. Pour la probability 
donn^e d'une transcription d'une chaine 91/92- --901 ®^ 
une cha£ne PiP2---Pn' 1' extension de la cha£ne 
graphique, respectivement phon^tique, par un nouvel 
5 element graphique gm+i/ respectivement Pn+i/ donne 
lieu soit cl la m§me chaine phon6tic[ue, respectivement 
graphique, soit ^ I'adjonction d'un nouvel Pigment 
phonetique, respectivement graphique. ExprimS en 

terme de probabilite, ^ (9x92 • • •9ra+llPlP2 • • -Pn+l) ^® 
10 depend que des probabilites de trois transcriptions 
possibles : 

soit P (gig2 . . •9mlPlP2 • ■ -Pn+l) 
soit P (9x92 • • •9m+llPlP2 • • -Pn) 
soit P (gig2 - . -9nilPlP2 • • -Pn) • 
15 Cette dependance est exprimee par la distance 

d' edition egale ^ la plus grande des trois 
probabilites indiquee ci-dessus. 

Apres avoir mis les indices m et n a zero pour 
une transcription globale (CG|CP) a I'etape E3 et 
20 incremente les indices m et n de 1 aux etapes E4 et 
E5 , des iterations commencent aux etapes E6 et E7 en 
determinant les probabilites pour que les M 
concatenations successives des elements graphiques g^ 
a de la chaine CG correspondent au premier element 
25 phonetique p^ de la chaine CP, soit : 

p(gi/ • • -gmlPi) = P(gmlPi) ^^^[^(gi/ • • -gm-ilPi)! 

avec 1 < m < M, en commengant par la probabilite 
elementaire PCg^lpi). Puis comme illustre par 1 * etape 
E8, le precede est poursuivi par des iterations pour 

30 determiner les probabilites pour que les M 
concatenations des elements graphiques g^ Sl gj^j de la 
chaine CG correspondent aiix deux premiers elements 
phonetiques p^ et P2 de la chaine CP, en utilisant 
les probabilites precedemment dSterminees pour le 

35 premier element graphique p^, soit : 
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p(gi/ . . -gmlPi^ ' P(gi' • • -gm-ilPi) 3 • 

Puis le precede est poursuivi en ajoutant un 
Sl^ment phonStique p^^ pour determiner les M 
5 probabilites P(gilPi/ . . .Pn) a P(gi, . . . /gwlPi/ • • -Pn) 
jusqu'aux M probabilites relatives a la chaine CP = 
(Pl/ • - -Pn) - L'ordinateur construit et memorise 
progressivement par iterations des etapes E4 E8, 
une matrice de deuxiemes probabilites P(gif---gml 

10 Pl / - - - Pn) ^ ^ colonnes pour concatenations 
successives des M elements graphiques et & N lignes 
pour concatenations successives des N elements 
phonetiques, en operant ligne par ligne selon 
l^exemple ci-dessus et en commengant par la 

15 probability P(gilPi) et en finissant par la 
probabilite P (gi, • . -gwlPi/ • • -Pn) - 

Chaque iteration relative a la (m.n)ieme 
transcription [ (gi/ . • .gx^) | (Pi/ . . .Pn) 3 etablit un lien 
entre le couple (gm/Pn^ ®^ couple a la plus grande 

20 probabilite des trois probabilites determinees 
precedemment parmi les trois couples (gm-l'Pn^ ' 
^gm'Pn-l) (gm-l'Pn-l^ • lien est memorise dans 

1 * ordinateur . Lorsque le couple {gm'Pn^ relie au 

couple (gm-l'Pn) ' s • agit d»une transcription 

25 elementaire de (g^.^^^g^) en g,^ ; lorsque le couple 
^gm'Pn^ relie au couple (gm'Pn-l^ ' s'agit 

d'une transcription elementaire de g^^ en (Pn-i^Pn^ ' 
et lorsque le couple (gmrPn) relie au couple (g^- 

l'Pn-1^ ' il s'agit d'une transcription elementaire de 

30 g^^ en p^. 

Ainsi a chaque determination de probability 
P (g^, . . .g^) I (p]L' • • - Pn) mymorisy dans 1 »ordinateur 

un lien, Les liens tracent un chemin unicjue ggalement 
mSmorisy progressivement dans I'ordinateur et reliant 

35 le premier couple (g^, p^) au dernier couple {g^, pjj) 
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dans la matrice a M colormes et N lignes. La 
topologie du chetnin unique dans la matrice de taille 
M-N segmente les chaines graphiques CG en graphemes 
et les chaines phonetiques CP en phonemes et aligne 
5 les elements graphiques et les 614ments phonetiques 
en correspondance biunivoque. Si un segment du chemin 
suit une portion d'une ligne entre deux 61€ments 
graphiques, la concatenation des elements graphiques 
de la portion de ligne correspond k 1 * element 

10 phon^tique de la ligne complete par un ou des 
elements phoneticfues muets et sans signification afin 
de former un couple de grapheme et de phoneme ayant 
le meme nombre d' elements, lequel couple est memorise 
dans 1 'ordinateur . Si un segment du chemin suit une 

15 portion de colonne entre deux elements phonetiques, 
1» element graphique de la colonne complete par un ou 
des elements graphiques sans signification correspond 
& la concatenation des elements phonetiques de la 
portion de colonne afin de former un couple de 

20 grapheme et de phondme ayant le meme nombre 
d' elements, lequel couple est memorise dans 
1 'ordinateur . Un changement de direction du chemin 
vers 1 ' horizontale, la verticale ou la diagonale dans 
la matrice indique une segmentation des chaines CG et 

25 CP- 

A titre d'exemple simple, on cherche k segmenter 
la transcription globale du mot CG = "beau" en la 
chaine phonetique CP = [bo] en supposant que I'etape 
E2 a estime les premieres probabilites individuelles 
30 suivantes dans le corpus C : 

P(b|b)=0,9 ; P(e|b)=0,l ; P(a|b)=0,l ; P(u|b)=0,l 
P{e|o)=0,2 ; P(a|o)=0,l ; P(u|o)-0,2 ; P(b|o)=0,l. 

Pour la transcription (beau|bo) du corpus, les 
M=4 iterations des etapes E5, E6 et E7 pour chacune 
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des M=2 lignes de la matrice de taille (4,2) 
produisent le tableau suivant : 





b = 91 


e = 92 


a = 93 


u = 94 


[b] = pi 


0,9 


<-0,09 


^0, 09 


<-0, 0009 


[O] = P2 


'^0, 09 


/^O, 18 


<-0, 018 


^0, 0036 



Le symbole ^ indique que le couple (g^ , p^) 



5 est relie au couple (gm-i/ Pn^ ' symbole 'l^ indique 

que le couple (g^ , Pj^) est relie au couple (g^, p^- 
2) ; et le symbole r\ indique que le couple (g^^ , Pj^) 
est relie au couple (gm-l' Pn-l^ • -^^ symbole /V 
associe a la transcription (be|bo) indique que cette 

10 derniere est deduite et done liee h la transcription 
(b|b) qui .la precede. Le symbole indique une 

frontiere de segmentation entre des couples de 
grapheme et phoneme- On en deduit de ce tableau 
1 * alignement suivant : 

15 b eau 
b o** . 

Le symbole * designe un element phon^tique muet et 
sans signification. 

20 Afin de parfaire les correspondances entre les 

graphemes et les phonemes et les correspondances 
entre les Sl^ments graphiques et les 616ments 
phon^tiques, de prSf^rence comme indiqu^ par I'^tape 
Ell, les premieres probabilites P(gi|Pi) a (P(gi|pj) 

25 des transcriptions de chacun des Pigments graphiques 
respect ivement en les J 616ments phon^tiques (etape 
E2) et en particulier les nombres de contingence 
^ipi ^ ^ipJ (sous-^tape E25) sont a nouveau estimSs 
en f one t ion notamment des rangs des Elements 

30 phonetiques places dans les chalnes phon^tiques 
donnees CG qui ont 6te segmentees en phonemes & 
1 ' etape precedente ElO. A nouveau des deuxiemes 



wo 2005/062292 



14 



PCT/FR2004/003278 



probabilites P (Si/ • • -gnilPl' • • -Pn^ ^ deuixidmes 

transcriptions de chaque transcription globale d'une 
chaine graphique donn^e a M Pigments graphiques (CG) 
en une chaine phon^tique correspondante (CP) k N 
5 ^ISments phon^tiques sont d^terminees par 1' execution 
des etapes E3 ^ ElO afin qu'^ I'^tape suivante ElO 
des liens soient Stablis entre des couples (gtn'Pn^ 
d'une nouvelle matrice M colonnes et N lignes et 
par consequent un chemin corrige reliant le dernier 
10 couple (gM/PN^ premier couple (gi/Pi) dans la 

nouvelle matrice de deuxiemes probabilites de taille 
MN. 

Eventuellement , grace a la capacite et la 
rapidite elevees de traitement de 1 ' ordinateur , 

15 d'autres boucles iteratives d' etapes E2 a Ell peuvent 
etre executees dans I'ordinateur jusqu'a la 
convergence du proc^de de correspondance, c'est-a- 
dire jusqu'a ce que le chemin etabli devienne 
constant d'une boucle a la suivante • 

20 Apres la segmentation de toutes les chaines 

graphiques et phonetiques du corpus G en graphemes et 
phonemes, la base a enregistree toutes les 
correspondances entre les elements graphiques et 
phonetiques et les correspondances entre les 

25 graphemes et phonemes pour tout le corpus C parcouru. 

Toute nouvelle chaine graphique ajout^e au 
corpus peut etre ensuite automat iquement transcrite 
en une chaine phonetique segment^e en des phonemes ^ 
30 I'aide notamment des correspondances pr^cgdemment 
etablies et enregistrees selon 1' invention, ce qui 
enrichit pr ogres si vement le corpus dans la base de 
donnees et augmente la precision des transcriptions, 
Comme deja dit, les transcriptions phonetiques 
35 sont utiles a des systSmes logiciels correcteurs 
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orthographiques de fautes pour reconna£tre des fautes 
lexicales lors de la saisie de texte sur un clavier 
de terminal . Ainsi lorsque la nouvelle chaine 
graphique ajoutee au corpus est saisie sur un clavier 
5 d"un terminal, la chaine phonfitique segmentee en 
phonemes au moyen des correspondances enregistrees 
est utilisee pour une correction orthographique de la 
nouvelle chaine graphique saisie. 

Le proced6 de 1 ' invention peut etre egalement 

10 utilise comme outil de generation automatique de 
messages courts SMS ^ partir d'un texte redig^ dans 
la langue courante. II necessite pour ce faire un 
corpus d' apprentissage C dont les transcriptions sont 
adaptees a la generation automatique de messages 

15 courts et font correspondre respectivement des 
chaines graphiques CG, telles que des mot et des 
locutions, a des chaines phon#tic[ues CP dont les 
"phondmes" sont phone tiquement lisibles par toute 
personne non phoneticienne , Par exemple, le corpus 

20 etablit les correspondances en frangais suivantes 
entre chaines graphiques et chaines phonetiques: 
j ' ai : G 
air : R 
occupe : OQP 

25 cas : K. 

Ainsi une nouvelle chaine graphique saisie dans 
un terminal est automat icjuement transcrite par le 
procede de 1 * invention en xane chaine phon^tique 
segmentee en phonemes lisibles par toute personne non 

30 phoneticienne au moyen des correspondances 
enregistrees pour Stre incluse dans un message court . 
Selon 1' exemple precedent, la phrase en fran<?ais 
"j'ai I'air occupe" saisie dans le terminal est 
transcrite automat iquement en un message court de 

35 suivant Gl'ROQP a transmettre par le terminal, les 
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"chaines phonetiques" [G] , [1 • ] , [Rl et [OQP] ^tant 
phonStiquement lisibles par tout usager non 
phoniticien. En variante, les "chaines phonStiques" 
[G] , [1 • ] / [R] et [OQP] peuvent §tre assimilSes h des 
5 elements phonetiques pour constituer une chaine 
phonStique [Gl'ROQP] . 

Selon une implementation preferee du procede de 
1' invention, les etapes du proced6 de 1' invention 

10 sont determinees par les instructions d'un programme 
d'ordinateur incorpore dans un ordinateur tel qu'un 
terminal, un ordinateur personnel, un serveur ou tout 
autre systeme inf ormatique . Le programme fait 
correspondre automatiquement des elements graphiques 

15 composant des chaines graphiques donnees a des 
elements phonetiques composant des chaines 
phonetiques correspondantes, apres avoir saisi 
initialement des transcriptions globales des chaines 
graphiques en les chaines phonetiques dans une base 

20 accessible par 1 ' ordinateur et avoir estime et 
enregistre dans la base des premieres probabilites de 
transcriptions elementaires des elements graphiques 
respectivement en les elements phonetiques. Le 
programme comporte des instructions de programme qui, 

25 lorsque ledit programme est charge et execute dans 
1 ' ordinateur dont le f onctionnement est alors 
commande par 1* execution du programme, realisent les 
etapes du procede selon 1' invention - 

En consequence, 1' invention s' applique egalement 

30 a un programme d'ordinateur, notamment un programme 
d'ordinateur sur ou dans un support d ' inf ormat ions, 
adapte a mettre en oeuvre 1* invention. Ce programme 
peut utiliser n'importe quel langage de 
programmation, et etre sous la forme de code source, 

35 code objet, ou de code intermediaire entre code 
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source et code objet 
partiellement compilee, 
autre foinne souhaitable 
selon 1 ' invention . 



tel que dans une forme 
ou dans n'importe quelle 
pour implementer le precede 
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REVENDI CATIONS 

1 - ProcSdg mis en oeuvre dans un ordinateur 
pour faire correspondre automat icpjement des elements 
5 graphiques (g^) composant des chaines graphiques 
donn€es a des Sl^ments phonetiques (pj) composant des 
chaines phon^ticjues correspondantes, aprds avoir 
saisi (El) initialement des transcriptions globales 
(CG|CP) des chaines graphiques en les chaines 

10 phonetiques dans xine base accessible par 1* ordinateur 
et avoir estime et enregistr^ dans la base (E2) des 
premieres probabilites (P(gi|Pj)) de transcriptions 
elementaires des elements graphiques respectivement 
en les elements phonetiques, caracterise par les 

15 etapes suivantes : 

pour chaque transcription d'une chaine graphique 
donnee (CG) a M elements graphiques en une chaine 
phonetique correspondante (CP) a N elements 
phonetiques, determiner (E3 ~ E9) des deuxiemes 

20 probabilites (P(gi/ . - -gmlPl' • • -Pn^ ^ ^® ^ deuxiemes 
transcriptions de M chaines graphiques concatenant 
successivement les M elements graphiques en N chaines 
phonetiques concatenant successivement les N elements 
phonetiques, en fonction chacune d'une premiere 

25 probabilite respective et de la plus grande de trois 
deuxiemes probabilites respectives determinees 
precedemment , et 

etablir et memoriser (ElO) un lien entre les 
derniers elements (gm'Pn) chaines graphique et 

30 phonetique de chaque dexixidme transcription et les 
derniers elements des chaines graphic[ue et phonetique 
de la transcription relative a la plus grande des 
trois deuxiemes probabilites respectives afin que des 
liens etablis dans une matrice de taille MN relative 

35 aux deuxiemes probabilites constitue un chemin unique 
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entre des dernier et premier couples d'^lSments 
graphique et phon^tique de la matrice pour segmenter 
la chalne graphique donnSe en des graphemes 
correspondant respectivement k des phonemes 
5 segmentant la cha£ne phon^tique correspondant e et 
pour enregistrer les correspondances entre les 
graphemes et phonemes dans la base^ le nombre 
d' elements graphiques dans un grapheme etant 
identique au nombre d' elements phonetiques dans le 
10 phoneme correspondant, afin que toute nouvelle chaxne 
graphique soit automat iquement transcrite en une 
chalne phonetique segmentee en phonemes au moyen des 
correspondances enregistrees . 

15 2 - Precede conforme a la revendication 1, selon 

lequel la premiere probabilite respective pour la 
determination (E3 - E9) d»une deuxieme probabilite 
(P(gi/ - • -gmlPl' • • "Pn^ ^ relative a une deuxieme 
transcription d'une chaine graphique concatenant m 

20 elements graphiques en une chalne phonetique 
concatenant n elements phonetiques, avec 1 < m < M et 
1 < n < N, est relative aux derniers elements dans la 
chalne graphique a m elements graphiques et la chalne 
phonetique a n Elements phonetiques. 

25 

3 - Precede conforme a la revendication 1 ou 2, 
selon lequel les trois deuxiemes probabilites 
respect ives determinees precedemment pour la deuxieme 
transcription de la chalne graphique a m elements 

30 graphiques en la chalne phonetique ^ n Elements 
phonetiques sont respectivement relatives a une 
deuxieme transcription d'une chalne graphique a m-1 
^l^ments graphiques en la chalne phonetique k n 
elements phonetiques, une deuxieme transcription de 

35 la chalne graphique ^ m Pigments graphiques en une 
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chalne phonStique k n-1 ^l^ments phon^tiques et une 
deuxidtne transcription de la chaine graphique a m-1 
Pigments graphiques en la chaine phon^tique k n-1 
SlSments phonetiques. 

5 

4 - ProcSdS conforme k I'une quelconque des 
revendi cat ions 1 3, comprenant une estimation 
d'autres premieres probabilit^s (P(gi|pj)) de 
transcriptions de chacun des elements graphiques 

10 respect ivement en les elements phonetiques en 
fonction notamment des rangs des elements phonetiques 
places dans les chaines phonetiques donnees (CG) qui 
ont ete segment^es en phondmes afin a nouveau de 
determiner {EG) des deuxiemes probabilites 

15 (P(g2^, . . -gmlPl' • • -Pn) ^ ^® ^ deuxiemes transcriptions 
de chaque transcription d'une chaine graphique donnee 
a M elements graphiques (CG) en une chaine phone tique 
correspondante (CP) a N elements phonetiques et 
etablir un chemin corrige reliant le dernier couple 

20 (gM'PN) premier couple (gi/Pi) dans une nouvelle 

matrice de deuxidmes probabilites de taille MN. 

5 - Proced§ conforme a I'une quelconque des 
revendi cat ions 1 a 4, selon lequel la nouvelle chaine 

25 graphique est saisie sur un clavier d'un terminal et 
la chaine phonetique segment ee en phonemes au moyen 
des correspondances enregistrees est utilisee pour 
une correction orthographique de la nouvelle chaine 
graphique saisie. 

30 

6 - Procede conforme a I'une quelconque des 
revendi cat ions 1 a 4, selon lequel les chaines 
phonetiques sont phonetiquement lisibles par toute 
personne non phoneticienne, et la nouvelle chaine 

35 graphique est automat iquement transcrite en une 
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chaine phongtique segmentSe en phonemes lisibles par 
toute personne non phonSticienne au moyen des 
correspondances enregistr^es pour §tre incluse dans 
un message court . 

5 

7 - Programme d'ordinateur apte a etre mis en 
oeuvre dans un ordinateur pour faire correspondre 
automat iquement des Elements graphiques (gi) 
composant des chaines graphiques donn^es k des 

10 elements phonetiques (pj) composant des chaines 
phonetiques correspondantes, apres avoir saisi (El) 
initialement des transcriptions globales (CGjCP) des 
chaines graphiques en les chaines phonetiques dans 
une base accessible par 1' ordinateur et avoir estime 

15 et enregistre dans la base (E2) des premieres 
probabilites (P(gi|Pj)) de transcriptions elementaires 
des elements graphiques respectivement en les 
elements phonetiques, ledit programme comprenant des 
instructions qui, lorsque le programme est charge et 

20 execute dans 1 'ordinateur , realisent les etapes 
suivantes : 

pour chaque transcription d'une chaine graphique 
donnee (CG) a M elements graphicjues en une chaine 
phone ti que correspondante (CP) a N elements 

25 phonetiques, determiner (E3 - E9) des deuxiemes 
probabilites (P (gi/ • • -gmlPl' • • - Pn) > ^® ^ deuxiemes 
transcriptions de M chaines graphiques concatenant 
successivement les M elements graphiques en N chaines 
phonetiques concatenant successivement les N elements 

30 phonetiques, en fonction chacune d*une premiere 
probability respective et de la plus grande de trois 
deiixi^mes probabilites respectives determinees 
pr^cedemment , et 

gtablir et m6moriser (ElO) un lien entre les 

35 derniers Elements (gm'Pn) chaines graphique et 
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phonStique de chaque deuxidme transcription et les 
derniers elements des chalnes graphique et phonetique 
de la transcription relative k la plus grande des 
trois deiixiemes probabilit6s respectives afin que des 
5 liens gtablis dans line matrice de taille MN relative 
aux deuxi ernes probabilitSs const itue un chemin unique 
entre des dernier et premier couples d»616ments 
graphique et phonetique de la matrice pour segmenter 
la chaxne graphique donn^e en des graphemes 

10 correspondant respect ivement a des phonemes 
segmentant la cha£ne phonetique correspondant e et 
pour enregistrer les correspondances entre les 
graphemes et phonemes dans la base, le nombre 
d' elements graphiques dans un grapheme etant 

15 identique au nombre d' elements phonetiques dans le 
phoneme correspondant, afin que toute nouvelle chaine 
graphique soit automatiquement transcrite en une 
chaine phonetique segmentee en phonemes au moyen des 
correspondances enregistrees . 
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